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摘 要 : 针对 传统 基于 相似 度 的 离 群 点 检测 算法 在 高 维 不 均衡 数据 集 上 效果 不 够 理想 的 问题 ， 文 中 提出 一 种 新 颖 
的 基于 随机 投影 与 集成 学 习 的 离 群 点 检测 (ensemble learning and random projection-based outlier detection, EROD)4E 
架 。 算 法 首先 集成 多 个 随机 投影 方法 对 高 维 数 据 进 行 降 维 ， 提 升 数据 多 样 性 ; 然后 集成 多 个 不 同 的 传统 离 群 点 检 
测 器 构建 异 质 集成 模型 ， 增 加 算法 鲁 棒 性 ; 最 后 使 用 异 质 模 型 对 降 维 后 的 数据 进行 训练 ， 训 练 后 的 模型 经 过 两 次 
优化 组 合 以 降低 泛 化 误差 ， 输 出 最 终 的 对 象 离 群 值 ， 离 群 值 高 的 对 象 被 算法 判定 为 离 群 点 。 分 别 在 4 个 不 同 领域 的 
高 维 不 均衡 真实 数据 集 上 进行 对 比 实验 ， 结 果 表明 该 算法 与 传统 离 群 点 检测 算法 和 基于 集成 学 习 的 离 群 点 检测 算 
法 相 比 ， 在 AUC 和 Precisiongn 值 上 平均 提高 了 3.6% 和 14.45%， 证 明 EROD 算法 具有 处 理 高 维 不 均衡 数据 异常 的 
优势 。 
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- Outlier detection algorithm based on random projection and ensemble learning 
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Abstract: To address the problem that traditional similarity-based outlier detection algorithms were not effective enough on 
high-dimensional unbalanced datasets, this paper proposed a novel Ensemble learning and Random projection-based Outlier 
Detection (EROD) framework. Firstly, the EROD algorithm integrated several random projection methods to reduce the 
dimensionality of high-dimensional data, which improved the data diversity. Secondly, it integrated several different 
traditional outlier detectors to build a heterogeneous ensemble model, which increased the robustness ofthe algorithm. Finally, 
the EROD acquired the final outlier value of the object by using the heterogeneous ensemble model to train the reduced- 
dimensional data and by using two optimal combinations of the trained model to reduce the total error, and the algorithm 
determined the object with high outlier value as outlier point. The results showed that the algorithm had an average 
improvement of 3.6% and 14.45% in AUC and Precision(gn value compared with the traditional outlier detection algorithm 


and the outlier detection algorithm based on ensemble learning. Therefore, the EROD algorithm has the advantage of handling 
the anomalies of high-dimensional unbalanced data. 
Key words: data mining; outlier detection; random projection; ensemble learning 


角度 分 析 ， 流 量 反 作 浆 检测 的 核心 思想 之 一 是 识别 欺诈 和 低 
质量 的 异常 流量 内 容 ， 以 保护 客户 和 平台 的 权益 。 在 当前 的 
几 器 学 习 领 域 ， 流 量 反 作 浆 检测 可 能 是 对 算法 鲁 棒 性 和 解释 
要 求 最 高 、 精 确 度 要 求 最 高 、 系 统 规模 和 时 效 性 要 求 最 高 、 
业 规模 最 大 的 业务 。 因 此 ， 流 量 反 作 浆 检测 技术 团队 必须 
有 " 铁 打 "的 营盘 ， 才 能 够 将 离 群 点 检测 技术 与 流量 反 作 浆 
步骤 ， 是 因为 离 群 点 的 存在 对 数据 统 ”应 用 结合 得 更 加 紧密 。 在 流量 反 作 弊 检测 任务 中 ， 高 维 不 均 


0 引言 

与 正常 数据 相 比 ， 离 群 点 是 具有 不 同 特征 的 数据 点 ， 其 
被 定义 为 ， 假设 某 一 个 数据 在 数据 集中 远 远 地 偏 离 其 他 绝 大 
多 数 数据 ， 那 么 该 数据 被 认 知 为 与 其 他 数据 所 产生 的 机 制 不 
相同 ， 则 它 被 判定 为 离 群 点 由。 之 所 以 删除 离 群 点 是 数 ] 
掘 中 不 可 或 缺 的 预 处 
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检 
计 分 析 的 结果 有 严重 的 负面 影响 外 。 因 此 ， 为 了 删除 离 群 点 ， ” 衡 数 据 的 离 群 点 检测 成 为 国内 外 相关 团队 关注 的 首要 焦点 。 
首先 需要 对 其 进行 识别 ， 这 是 离 群 点 检测 算法 的 首要 目标 。 基于 相似 度 的 离 群 点 检测 算法 是 常见 的 传统 无 监督 机 器 
离 群 点 检测 是 一 项 重要 的 机 器 学 习 任 务 ， 它 可 以 在 具有 学 习 算 法 ， 但 该 种 类 离 群 点 检测 算法 在 检测 高 维 数据 时 由 于 
许多 高 风险 应 用 的 常规 数据 对 象 中 检测 出 异常 对 象 ， 例 如 : 在 距离 计算 方面 面临 维度 灾难 的 挑战 ， 使 得 难以 衡量 对 象 在 
流量 反 作 浆 检测 。 高 维 空 间 分 布 模式 上 的 相似 度 ， 进 而 导致 其 在 检测 高 维 不 均 


据 《2020 年 中 国 异 常 流量 报告 》 异常 流量 约 占 整 体 的 。” 衡 数 据 集 时 ， 存 在 检测 率 低 、 参 数 敏感 性 高 等 问题 。 在 现实 
8.6 个 百分点 。 作 为 全 球 最 大 的 广告 流量 平台 ， 阿 里 妈妈 ( 隶 业界 实际 环境 中 ， 在 没有 真实 的 数据 标签 的 情况 下 ， 工 程 
属于 阿里 巴巴 集团 ) 拥 有 超过 1000 亿美 元 的 商业 流量 ， 这 代 ” 师 们 通常 要 构建 大 量 的 、 无 监督 的 异 质 集成 模型 ， 即 具有 不 
表 着 其 为 黑 灰 产业 瞄准 的 首要 对 象 。 从 阿里 妈妈 团队 的 业务 ， 同 超 参数 的 不 同 算 法 的 集成 模型 ， 以 便 进 一 步 地 组 合 进行 下 
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郭 一 阳 ， 等 : 基于 随机 投影 与 集成 学 习 的 离 群 点 检测 算法 


种 基于 


随机 投影 和 集成 学 习 (ensemble learning and random 


projection-based outlier detection, EROD) 的 离 群 点 检测 算法 。 
为 了 提升 传统 的 离 群 点 检测 


进行 降 


> EE 


了 动态 分 组 与 
的 离 群 值 。 


维 ， 集 成 传统 的 离 群 
8 所 有 数据 对 象 的 离 
分 化 组 合 ， 组 合 后 上 


集 上 的 实验 表面 


检测 率 得 到 了 明 
本 文 的 主要 贡献 总 结 如 下 : 
a) 提出 了 一 种 
模型 上 进行 了 异 质 
多 样 性 ， 集 成 传统 上 


过 


在 UCI(University of 
, EROD 算法 与 


算法 在 高 维 不 均衡 数据 集 上 
的 检测 正确 率 ，EROD 算法 应 用 随机 投影 对 待 检测 的 数据 集 


点 检测 算法 对 降 维 后 的 数据 计算 
B, ， 通 过 对 传统 的 离 群 点 检测 算法 进 
的 离 群 值 作为 
California，Irvine) 真 实数 据 
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从 阅读 相关 文献 获知 ， 集 成 学 习 的 不 同 的 
产生 独立 误差 ， 对 多 个 基 检 测 器 进行 组 合 ， 可 
上 缓解 单一 基 检 测 器 的 超 参数 敏感 、 训 练 难度 大 和 拟 合 效 果 


其 检测 器 各 


以 在 一 定 程 度 


差 等 问题 六。 文献 [10] 


文中 提出 了 特征 


装 ÎN (feature 


bagging, FB) 离 群 点 检测 算法 ， 该 方法 通过 分 离 原始 特征 并 
并 合并 多 个 算法 应 用 了 


创建 随机 的 特征 子 集 ， 


应 的 离 群 分 数 ， 该 算法 提高 了 检测 性 


该 子 集 产生 相 


ERE, 但 


于 其 检测 器 为 


法 最 终 判 定 


显 的 提升 。 


分 析 ， 预 测 了 整体 框架 
行 了 可 视 化 分 析 论 述 


的 参数 与 


新 的 无 监督 离 群 
集成 。 对 随机 投影 法 进行 集成 以 提升 数据 
的 离 群 点 检测 算法 以 提升 模型 多 样 性 ， 通 
两 个 阶段 的 组 合 ， 提 升 整体 框架 的 检测 率 。 
b) 针对 传统 的 离 群 点 检测 
据 集 上 存在 不 稳定 


点 检测 框架 ， 


性 ， 利 用 集成 的 特性 对 传统 算法 
处 理 ， 使 得 整体 趋 于 稳定 ， 提 升 检测 率 。 
c) 对 传统 的 离 群 点 检测 算法 进行 了 全 面 的 参数 敏感 性 
性 能 ， 并 对 特别 的 数据 集 进 


其 他 离 群 点 检测 算法 对 比 ， 


在 数据 和 


算法 在 不 同 的 高 维 不 均衡 数 


进行 均衡 


anomalies, LODA) 方 法 ， 其 通过 识别 
进而 检测 出 离 群 点 ， 该 算法 
单个 检测 器 输出 结果 


提出 孤立 森林 (isolation forest, IForest) 算 法 ， 其 
树 并 记录 这 些 孤 立 树 的 路 径 长 度 ， 以 此 作为 计 


同 质 检测 器 ， 这 导致 了 其 方法 不 够 多 样 性 ; 
出 了 一 种 轻 量 级 异常 在 线 检 测 (lightweight on-line detector of 
有 离 大 多 数 特 征 的 数据 
有 着 较 低 的 时 间 复 杂 度 ， 但 由 于 
` 稳 定 导致 其 检测 率 比 较 
集成 多 棵 孤立 
| 算 离 群 分 值 的 


依据 ， 但 若是 离 群 点 样本 占 比 较 高 ， 


与 该 算法 所 


文献 [11] 文 中 提 


Ks 文献 [12] 


假设 的 离 群 


点 易 被 孤立 的 理论 基础 互相 冲突 ， 致 使 产生 不 型 


EE 想 的 结果 。 


可 以 看 出 ， 基 于 集成 学 习 的 离 群 点 检测 算法 可 以 通过 侧 


检测 离 群 点 。 
法 局 限 性 提供 了 思路 ， 即 EROD 算法 。 


1 ”相关 工作 

从 19 世纪 ,研究 学 者 们 就 已 
科学 研究 中 。 基 于 统计 与 概率 的 离 群 
提出 的 研究 方法 ， 这 种 方法 根据 统 站 


经 展开 了 对 离 群 点 检测 的 


构 的 多 样 性 ， 并 通过 两 个 阶段 的 组 合 ， 


离 群 现象 ， 具 有 时 间 复 杂 度 低 的 优 
估计 出 数据 集 的 分 布 模型 ， 然 后 ， 


该 分 布 模型 的 分 布 规律 ， 最 后 ， 


模型 是 否 一 


每 个 给 定 样本 


到 统计 函数 Copula 函数 的 启发 ， 


与 概率 学 原理 进行 检测 
首先 ， 
假设 其 中 的 数据 对 象 满足 
通过 评判 数据 对 象 与 该 分 布 
致 来 检测 出 数据 集中 存在 的 离 群 点 。 文 献 [4] 受 
通过 利用 Copula 函数 预测 


点 检测 方法 是 一 种 较 早 


。 其 核心 思 FH ! 相 是 : 


FE H 


方法 需要 预先 准 
先 准确 地 估计 


地 计算 出 分 布 模型 
该 参数 ， 那 么 将 导致 该 种 方法 得 


分布 概率 ， 以 确定 其 离 群 程度 但 是 该 种 
4 的 参数 ， 但 如 果 不 能 预 


和 到 的 参数 佑 


大 幅度 降低 。 


相似 度 的 离 群 


计 值 与 真实 值 之 间 


相似 度 的 离 群 ， 
点 检测 方法 针对 
布 不 同 的 特点 ， 
密度 、 角 度 等 ) 进 行 检测 离 群 点 。 


Neighbo 
Neighbo 


率 低 。 文 献 [6] 中 提出 了 首 个 其 
(Local Outlier Factor, LOF) 检 六 


参数 设 


存在 显著 差异 ， 


于 基于 统计 与 概率 的 离 群 点 检测 方法 的 局 限 性 ， 基 于 
点 检测 研究 方法 在 二 十 一 世纪 初 被 提出 。 基 于 


使 得 离 群 点 检测 的 准确 率 


rs, k-Median) 通 过 计算 样 
群 点 ， 但 它们 对 


正常 点 和 离 群 点 在 数据 集中 分 
通过 度量 数据 对 象 之 间 的 相似 度 ( 如 : 距离 、 
在 文献 [5] 中 ，k 最 近邻 (k 


Nearest Neighbors, KNN), k 最 近邻 平均 数 (Average k Nearest 
rs, Avg-kNN) 和 k 最 近邻 中 位 数 (Median k Nearest 
本 之 间 的 欧式 距离 来 检测 离 
非常 敏感 ， 且 检测 高 维 数据 时 检测 


于 密度 的 聚 类 局 部 离 群 因子 
I 方法， 该 技术 为 每 个 数据 对 


象 分 配 一 个 离 群 
但 无 法 处 理 多 粒度 和 超 参 敏感 性 


子 ， 解 决 了 把 离 群 值 看 做 二 元 属性 的 问题 ， 
等 人 [对 LOF 


问题 。Tang 


进行 改进 ， 


Outlier Factor, COF), 


提出 了 基于 连接 的 离 群 因子 (Connective-based 
该 方法 通过 计算 连接 距离 作为 最 短路 


性 之 间 的 


径 以 估计 邻居 的 局 
区 分 ， 但 是 该 方法 


部 密度 ， 其 关键 | 


思想 是 基于 低 密度 和 孤立 
与 LOF 相 比 耗费 更 多 的 计算 成 


本 。 文 献 [8] 


文中 提出 了 基于 角 


[三 
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Based Outlier Detection, ABOD) 方 法 ， 通 过 将 加 权 余 弦 分 值 


与 所 有 近邻 点 的 方差 作为 离 群 


复杂 ， 容 易 导 致 过 拟 合 。 


分 值 ， 该 方法 的 决策 边界 比较 


的 离 群 点 检测 (Angle- 


更 强 、 检 测 率 更 高 
2 ”本 文 方法 与 理论 性 质 


检测 算法 的 框架 与 流程 ， 然 后 介绍 集成 随 必 


重 于 结合 模型 的 输出 结果 以 生成 稳定 的 集成 模型 ， 进 而 有 效 


这 为 本 文 解决 上 述 基于 相似 度 的 离 群 点 检测 算 
EROD 算法 利用 集成 


学 习 的 特性 对 传统 算法 进行 均衡 处 理 ， 且 在 组 件 
择 上 的 理论 基础 互相 补充 ， 并 提高 了 算法 的 鲁 棒 性 。 同 时 ， 
EROD 算法 在 数据 和 模型 上 进行 了 异 质 集成 ， 提 于 
提升 了 算法 的 检测 率 。 
妹 此， 与 上 述 离 群 点 检测 算法 相 比 ，EROD 具有 重 棒 性 
以 及 不 依赖 先前 假设 的 优势 。 


成 模型 以 及 二 阶段 聚合 算法 ， 表 1 MH 
所 需 的 部 分 符号 定义 。 
表 1 符号 定义 
Tab. 1 Definition of symbols 


检测 器 的 选 


了 整体 结 


本 节 首 先 给 出 基于 随机 投影 与 集成 学 习 的 EROD 离 群 点 
LRE, FAR 
上 了 本 文 后 面 内 容 


符号 定义 
m 组 件 检 测 器 数量 
A 随机 投影 矩阵 
X 原始 数据 集 
y EH m ^e A SEX HITEN S ^E IU) m Ad Ses 
i-1,2, ..., m 
yi Yi P358 jAi 
Y 7 的 集合 
Di 检测 五 的 第 i 个 组 件 检 测 器 
D Di; 的 集合 
Dy) y TE SB i ANEAFI SS E A ESTEE 
OF 六 的 离 群 值 矩 阵 ,其 组 成 元 素 为 Dij) 
ZOF 对 OF 进行 归 一 化 处 理 后 的 离 群 值 矩 阵 
row ZOF 行 数 
outlierScore EROD 算法 最 终 判 定 的 对 象 离 群 值 集合 


2.1 EROD 算法 整体 框架 与 流程 
EROD 算法 分 为 3 个 步骤 实现 : 


a) 降 维 。 主 要 利用 随机 投影 法 将 高 


低 维 数据 ; 


数据 随机 投影 成 


b) 构建 组 件 检测 器 集成 模型 。 为 了 增强 EROD 算法 的 


和 鲁 棒 性 ， 将 不 同类 别 的 离 群 点 检测 模型 进行 异 质 集成 ; 
c) 二 阶段 聚合 。 将 异 质 集成 中 多 个 组 件 检测 器 随机 划 


分 成 多 个 不 同 的 集群 ， 


在 不 同 的 集群 中 选取 每 个 集群 中 的 最 


大 值 ， 对 多 个 最 大 值 求 均值 ， 该 均值 作为 EROD 判定 的 离 群 
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郭 一 阳 ， 


值 。EROD 算法 整体 框架 与 流程 如 图 1 所 示 。 


2 


数据 上 易 受 到 维度 灾难 的 严重 影响 313。 为 了 解决 该 问题 ， 
JL 随机 投影 法 被 广泛 使 用 进行 消除 维度 灾难 所 带 来 的 负面 
FUR. JL 随机 投影 是 
在 离 群 点 检测 上 面 ， 是 因为 其 降 维 机 制 可 保持 两 两 数据 之 
的 相对 距离 ， 对 高 维 数据 在 欧 氏 乞 


Y 
随机 划分 互 扩 的、 数量 均等 的 集群 


" Xx — * 
Dii) Dy) 
Dy) Dy) 
Di) Dayi) 
aem m 

本 A 
Y 
-阶段 聚合 
Y 
EROD 输 出 


图 1 EROD 算法 框架 与 流程 

Fig.1 Framework and process for EROD algorithm 
.2 ”随机 投影 集成 
在 离 群 点 检测 过 程 中 ， 绝 大 多 数 离 群 点 检测 算法 在 高 维 


| 


种 降 维 算 法 ， 它 之 所 以 被 广泛 使 用 
间 


间 上 进行 低 失 真 的 压缩 ， 


离 群 点 的 信息 在 压缩 过 程 中 得 以 保留 下 来 。 更 为 重要 的 是 ， 


随机 投影 法 的 随机 机 制 可 增强 集成 学 习 的 多 样 性 。 


Lindenstrauss 
一 种 线性 映射 关系 f: RIRE, 
维 数据 ; 


JL 随 机 投影 的 目的 是 近似 保 距 ， 其 理论 基础 是 Johnson- 
ADEI, WRONA, JL 随机 投影 表示 
即将 d 维 数据 随机 投影 为 k 
甫 助 定理 可 


如 式 (2) 所 示 ， 


Johnson-Lindenstrauss 


知 ，1< 流 j<n，sE(0,3)， 要 以 较 高 的 概率 P 满足 两 两 数据 对 
象 之 间 的 相对 距离 保持 在 (1-s, 1+e) 内 ， 需 将 数据 对 象 降 维 到 
k-O(log(n)/c?)2E . 


上 略 优 于 另外 3 种 随机 投影 法 094， 故 EROD SEX 
随机 投影 法 。 


有 d 维特 征 的 数据 构成 ; 稀 疏 随机 矩 阵 4 是 m 个 不 同 的 稀 
琉 随 机 投影 矩阵 ， 
BENLE RE A TEJ 


Ui 


A 


do 


WE A, 


FER BENLI RAE P A C R7" 


f(x)2xAAe Ré (1) 
P0- e) -x sf G)- £e sa eue; -xf]s26** Q) 
如 表 2 所 示 ， 根 据 文献 [15] 中 的 4 种 广泛 使 用 的 随机 甜 
可 将 开 随 机 投影 划分 为 4 种 方法 。 
在 4 种 开 随 机 投影 法 中 ， 稀 玻 随机 投影 法 在 时 间 效 率 
KHF 


等 : 基于 随机 投影 与 集成 学 习 的 离 群 点 检测 算法 


ChinaXiv 合 作 期 刊 
第 39 卷 第 9 期 


表 2 随机 投影 法 说 明 
Tab. 2 Description of the random projection 
JL 随机 投影 法 A FR Ai 
高 斯 随机 投影 和 满足 独立 标准 正 态 分 布 
dui 
离散 随机 投影 | 
gs pes 
by b, b, Di 
1 bia by b, biz 
A-—-| bio bia b, bis 4 
循环 随机 投影 [em bius bius €: Ln 
其 中 :bo,b,…,by 满 足 高 斯 分 布 ; A 为 4xd 
对 角 和 矩阵 ， 其 对 角 线 元 素 满足 独立 伯 努 利 
分 布 
1 
k pec 
VEO ap 24k 
1 
Mii ESL DER Aj-i0 peto 
1 
aJe apa =s 
VE p 2k 
LER SETA 1 所 示 。 
算法 1 随机 投影 集成 算法 
输入 : 数据 XER”， 数 据 集 X 降 维 后 的 维度 ko 


输出 : RE Y. 


a) Initialize m Sparse Random Projection matrix A-(A:. 

A» A3, > An} ERPE // puto m As JL PABEN RE A 

b) for Ai in A do // 遍历 m 个 IL FARENE RE A 

c) Yi-X, Ai € R^*. // 对 X 进 行 随机 投影 ， 得 到 投影 后 的 数 Ya 

d) Add(Yi ,Y) // 把 数据 Yi 存 入 集合 Y 

e) end for 

f) Output(Y) // 输出 集合 Y 
2.3” 异 质 集成 学 习 

EROD 离 群 点 检测 算法 选择 KNN 检测 器 、Avg-kNN 检 
测 器 、k-Median 检测 器 、LOF 检测 器 、COF 检测 器 和 
ABOD 检测 器 作为 异 质 集成 学 习 模型 的 组 件 检 测 器 ， 即 m=6。 
之 所 以 选择 这 6 种 不 同 的 离 群 点 检测 算法 作为 异 质 集成 

学 习 模 型 中 的 组 件 检 测 器 ， 是 因为 相同 的 离 群 点 检测 算法 产 
生 的 相同 输出 对 集成 学 习 的 积极 影响 效果 不 明显 中 ， 换 句 
话说 ， 一 般 情况 下 ， 不 同 的 离 群 点 检测 算法 所 构建 成 的 异 质 
集成 学 习 模型 会 产生 明显 的 积极 效果 。 这 是 因为 不 同 的 组 件 
检测 器 会 促使 集成 学 习 在 学 习 过 程 中 产生 多 样 性 ， 可 以 学 习 
数据 的 不 同 特征 ， 进 一 步 提 升 模型 的 泛 化 能 力 。 另 外 ， 相 似 
度 高 的 离 群 点 检测 算法 会 产生 相似 的 误差 ， 这 会 对 预测 结果 
带 来 一 定 的 消极 影响 5。 
由 于 使 用 不 同 的 、 检 出 率 低 的 离 群 点 检测 算法 ， 虽 然 保 


w 


如 式 (3)(4) 所 示 ， 原 始 数据 集 的 特征 空间 是 由 n 个 


每 个 稀 玻 随机 投影 矩阵 R4“， 丈 是 由 稀 
在 原始 数据 集 卫 上 得 到 的 具有 个 维特 


征 的 数据 ， 其 中 : 0<k<d, i=1,2, ..o m. 
X — X2 X32 Xn } e RH (3) 
Y, -« X, A»eRr* (4) 


EROD 算法 使 用 JL 随机 投影 法 进行 集成 ， 其 基本 过 程 
IF: 首先 ，EROD 算法 使 用 稀疏 随机 投影 法 生成 m 个 不 同 
然后 ， 利 用 这 m 个 稀疏 矩阵 
对 高 维 数据 集 XER" “进行 投影 ， 得 到 产 个 投影 后 的 数据 


ENER”, Ja, JE Yi dg AEG YF, WERE Y. 


证 了 一 定 的 多 样 性 ， 但 是 模型 的 预测 率 将 会 降低 ， 所 以 应 平 
衡 多 样 性 和 检测 率 之 间 的 关系 。 
Kk, KLH kNN 检测 器 、Avg-kNN 检测 器 、k- 
Median 检测 器 、LOF 检测 器 、COF 检测 器 和 ABOD 检测 器 
这 6 种 具有 不 同 特色 且 检 测 率 在 所 有 主流 的 离 群 点 检测 算法 中 
较 高 的 离 群 点 检测 算法 作为 异 质 集成 学 习 模型 的 组 件 检测 器 。 
如 式 (5) 所 示 ， 异 质 集 成 学 习 模 型 中 每 个 组 件 检测 器 对 
数据 Y 计算 所 获得 的 分 值 在 此 被 称 为 离 群 因子 
Outlier_Factor， 每 个 组 件 组 件 检 测 器 的 输出 为 DOO ERL, 
Outlier_Factor=[D(Y), DY), Ds(Y)]eR™S (5) 
异 质 集成 基本 过 程 如 下 : 首先 ， 初 始 化 异 质 集成 模型 中 
的 6 个 组 件 检 测 器 ;其 次 ， 利 用 初始 化 后 的 组 件 检测 器 检测 


202205.00092v1 


chinaXiv: 


录用 定稿 
算法 1 输出 的 数据 最 后 ， 判 定 组 件 检测 器 的 输出 值 作 
为 数据 了 的 离 群 值 。 县 体 过 程 如 算法 2 所 示 。 


算法 2 异 质 集成 学 习 算 法 
输入 : 集合 Y={Y1，Y2,Y3 Yn} ÆA D={Di,D2,D3,*…,Dn}。 
输出 : 离 群 值 矩 阵 OF. 

a) for i-1:Size(D) do 


b) Initialize component detector Di 

/* 对 每 个 组 件 检测 器 进行 初始 化 */ 

c) end for 

d) for Yi in Y do // 遍历 集合 Y 

e) for yj in Yi do // 遍历 数据 集 Yi 

f) OF=Di(y;) /* 利用 第 宇 个 组 件 检测 器 检测 y;, E y; 的 离 群 
值 Di(yi)， 将 其 作为 离 群 值 窍 阵 OF 中 的 元 素 /* 

g) end for 

h) end for 

i) Output(OF) // 输出 离 群 值 矩阵 OF 


算法 2 中 全 部 组 件 检测 器 在 数据 集 已 上 输出 的 离 群 值 矩 
阵 OF 如 式 (6) 所 示 。 
Di (y) D.() … D&(w) 
Di(ys) D(vw;) … De(ys) 


or- i E ; Í (6) 
D, (Yn) D,(v,) ... Dely,) 


BEREHEDBEE OF 的 物理 意义 : 该 矩阵 由 数据 集 Yi PERR 
样本 的 离 群 因 子 所 构成 ， 即 矩阵 中 的 某 个 元 素 代 表 某 个 检测 
器 对 于 某 个 样本 所 评估 的 离 群 程度 [19 201 , 
24 二 阶段 聚合 方法 

如 图 2 所 示 ， 偏 差 与 方差 之 间 存 在 反比 关系 ， 即 随 着 外 
成 学 习 模 型 复杂 程度 的 增加 ， 偏 差 下 降 ， 方 差 上 升 。 这 是 天 
为 复杂 程度 低 的 模型 在 拟 合 能 力 上 是 欠缺 的 ， 即 组 件 检测 器 
学 习 能 力 不 够 强 ， 此 时 偏差 主导 了 泛 化 误差 ， 反之， 则 方差 
主导 了 泛 化 误差 。 


Tt 


UN 泛 化 误差 
a ON 7 
偏差 e E pa 
集成 学 习 模型 复杂 程度 
图 2 偏差 -方差 - 泛 化 误差 三 者 之 间 的 关系 


Fig.2 The relationship among Bias-variance-total error 

通常 情况 下 ， 对 组 件 检测 器 求 均 值 可 以 达到 降低 方差 ， 
高 偏差 的 效果 ;对 组 件 检 测 器 求 最 大 值 则 可 以 达到 降低 偏 
， 提 高 方差 的 效果 。 由 于 单一 地 使 用 任何 一 种 组 合 方式 可 


此 ， 合 理 的 结合 均值 和 最 大 值 两 种 组 件 检测 器 组 合 方式 可 
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纲 ; 其 次 ， 将 6 个 组 件 检测 器 随机 划分 成 2 个 集群 ， 且 每 个 
集群 中 所 包含 的 3 个 离 群 点 检测 模型 存在 互 斥 关系 ; 最后， 
从 每 个 集群 中 选择 最 大 值 作 为 该 集群 代表 值 ， 对 每 个 集群 代 
表 值 进行 求 平 均 ， 该 均值 作为 EROD 算法 最 终 判 定 的 数据 对 
象 离 群 值 。 具 体 过 程 如 算法 3 所 示 。 

算法 3 ”二 阶段 聚合 算法 
输入 : 离 群 值 矩 阵 OF. 
输出 : EROD 算法 最 终 判 定 的 对 象 离 群 值 。 
a) ZOF-Z-normalization(OF) 
/* 对 OF 进行 归 一 化 处 理 ( 为 避免 数据 表示 杂乱 ， 归 一 化 后 的 数据 形 
式 仍 采用 表 1 中 的 数学 符号 表示 ) */ 
b) rowscountRow(ZOF) // 计算 矩阵 ZOF 行 数 
c) for j-1:row do // 遍历 Yi~Ye 中 第 了 个 数据 
d) for i-1:6 do // 遍历 组 件 检测 器 


e) detectors=Di(yj) 
// 将 矩阵 ZOF 每 行 中 的 离 群 值 存 入 集合 
f) end for 

g) groupi,group2-randomDivide(detectors) // 划分 集群 


detectors 


h) maxi-Max(group1) 
i) max2-Max(group2) 
j) outlierScore-Average(max1,max2) 
k) end for 
1) Output(outlierScore) 
2.5 时 间 复 杂 度 分 析 
设 数据 的 数量 和 维度 分 别 为 n 和 4。 算法 1 中 ， 对 数据 
进行 预 处 理 ， 遍 历数 据 进行 随机 投影 ， 该 阶段 的 时 间 复 杂 度 
为 O(n); 算法 2 中， 使 用 组 件 检测 器 对 数据 进行 计算 ， 故 该 
阶段 的 复杂 度 取 决 于 组 件 检 测 器 ， 又 COF 检测 器 和 ABOD 
检测 器 都 是 Fast 版 本 ， 故 kNN 检测 器 、Avg-kNN 检测 器 
k-Median 检测 器 、LOF 检测 器 、COF 检测 器 和 ABOD 检测 
器 的 时 间 复 杂 度 分 别 为 O(nd). O(nd). O(nd). Oln), Omn?) 
和 O(n’), Om): 算法 3 中 ， 该 阶 
段 任 务 是 对 算法 2 中 的 计算 结果 进行 优化 组 合 ， 该 阶段 的 时 
间 复 杂 度 为 O(n)。 
综 上 可 得 EROD 算法 的 时 间 复 杂 度 规模 为 O(n?)。 


3 ”实验 


3.1 实验 环境 
实验 的 硬件 环境 是 : 处 理 器 为 Intel(R) Xeon(R) Gold 
5117 CPU (à) 2.00GHz 2.00 GHz(2 处 理 器 )， 显 卡 为 Nvidia 
Tesla V100-PCIE-16GB( 共 3 块 )， 内 存 (RAM) 为 256GB。 
实验 的 软件 环境 是 : 操作 系统 环境 为 Microsoft 
Windows Server 2016 Standard， 算 法 的 实现 环境 为 pycharm 
professional、 
3.2 数据 集 
如 表 3 所 示 ， 为 了 评估 本 文 方法 的 检测 性 能 ， 选 择 了 4 
组 均 来 自 UCI 数 据 存储 库 的 具有 不 同 实际 应 用 场景 的 真实 数 
据 集 。 下 面 分 别 对 该 4 组 数据 集 的 具体 信息 进行 详细 论述 : 
a) Arrhythmia 数据 集 : 该 原始 数据 集 承 载 的 是 心律 失常 


python-3.6.2、tensorflow-1.14。 


是 
E 
能 会 导致 所 获得 的 离 群 分 值 与 真实 分 值 产生 较 大 的 误差 
K 
以 


个 合理 


起 到 平衡 偏差 与 方差 的 作用 ， 使 得 泛 化 误差 降 到 
的 范围 ， 提 高 检测 率 。 

于 泛 化 误差 可 近似 看 成 偏差 的 平方 与 方差 之 间 的 求 和 ， 
所 以 ， 在 第 一 阶段 ， 对 组 件 检测 器 求 最 大 值 ， 最 大 程度 降低 
泛 化 误差 ， 在 第 二 阶段 ， 对 余下 的 组 件 检测 器 求 均 值 ， 可 使 


的 信息 ， 属 于 多 类 分 类 数据 集 ， 共 16 个 类 别 和 279 个 维度 ， 
此 作 用 是 区 分 是 否 存 在 心律 失常 现象 。 现 对 该 原始 数据 集 进 
行 预 处 理 ， 删 除 5 个 维度 ,第 3、4、5、7、8、9、14、15 
等 一 系列 小 类 别 被 定义 为 离 群 ， 其 余 类 为 正常 。 处 理 后 的 数 
据 集 总 共 包含 452 个 样本 对 象 ， 每 个 样本 包含 274 个 维度 ， 


得 偏差 增加 的 幅度 降 到 最 低 ， 进 而 最 大 程度 降低 泛 化 误差 的 
上 升幅 度 。 


其 中 有 66 个 样本 对 象 作为 离 群 样本 。 
b) Mnist 数据 集 : 该 原始 数据 集 承载 的 是 手写 数字 的 图 


二 阶段 聚合 基本 过 程 : 首先 ， 对 算法 2 的 输出 进行 归 


像 信息 ， 包 含 数 字 0 到 9 等 10 个 图 像 类 别 。 现 对 该 原始 数 


化 处 理 ， 使 不 同 离 群 点 检测 模型 的 输出 值 规范 化 到 同一 级 量 


据 集 进行 预 处 理 ， 数 字 0 被 定义 为 正常 ， 其 余数 字 被 定义 为 


Chir H 3aX iv& (/E RH Bal 
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离 群 ， 从 原始 数据 集 784 个 维度 中 随机 选择 100 个 维度 作为 程度 ， 对 集成 学 习 中 每 个 组 件 检测 器 的 近邻 参数 大 进行 了 敏 

处 理 后 的 样本 维度 。 处 理 后 的 数据 集 总 共 包含 7603 个 样本 感性 实验 分 析 ， 进 一 步 地 从 其 中 选择 出 对 EROD 算法 检测 性 

对 象 ， 每 个 样本 包含 100 个 维度 ， 其 中 有 700 个 样本 对 象 作 能 影响 较为 积极 的 取 值 参数 k， 并 依 此 建立 EROD 离 群 点 检 
为 离 群 样本 。 测 模 型 。 

c) Musk 数据 集 : 该 原始 数据 集 承载 的 是 订 香 分 子 的 信 在 实验 中 ， 在 分 析 并 选择 出 对 EROD 算法 检测 性 能 影响 

息 ， 其 作用 是 根据 分 子 区 分 是 否 为 廊 香 。 现 对 该 原始 数据 集 较为 积极 的 取 值 参数 k 后 ， 对 比 算法 KNN, Avg-kNN. k- 


进行 预 处 理 ， 编 号 j146、j147 和 252 等 非 廊 香 类 被 定义 为 正 Median, LOF, COF 和 ABOD 的 参数 上 与 EROD 中 相对 应 
常 ， 编 号 213 和 211 等 磨 香 类 被 定义 为 离 群 ， 删 除 其 他 类 别 。 的 组 件 检 测 器 的 参数 保持 一 致 ， 在 对 比 集成 学 习 算法 中 ， 
处 理 后 的 数据 集 总 共 包 含 3062 个 样本 对 象 ， 每 个 样本 包含 FB 算法 的 基 检 测 器 设置 为 LOF 检测 器 ， 且 与 EROD 中 组 件 
166 个 维度 ， 其 中 有 97 个 样本 对 象 作 为 离 群 样本 。 检测 器 LOF 的 参数 保持 一 致 ， LODA 算法 中 参数 为 自动 优 
d) Speech 数据 集 : 该 数据 集 承载 的 是 现实 世界 中 语音 化 ; IForest 算法 的 采样 大 小 参数 Ww 设置 为 256 和 树 的 数目 参 
的 信息 ， 其 中 美国 口音 占 比 最 大 ， 其 作为 正常 类 ， 其 余 口音 数 tn 设置 为 100; 同时 ， 为 保证 实验 的 公平 性 和 合理 性 ， 设 
被 定位 为 离 群 。 该 数据 集 总 共 包含 3686 个 样本 对 象 ， 每 个 ” 置 EAOD 中 检测 器 个 数 与 EROD 中 检测 器 个 数 等 同 。 


样本 包含 400 个 维度 ， 其 中 有 61 个 样本 对 象 作为 离 群 样本 。 为 了 确保 本 实验 的 结果 具有 稳定 性 ， 现 对 EROD 算法 和 
表 3 数据 集 信息 其 对 比 算法 分 别 执行 10 次 ， 对 该 10 次 产生 的 结果 计算 均值 
Tab.3 Details of four datasets 作为 最 终 的 结果 。 
数据 集 样本 数 ”维度 BRR 离 群 点 比例 /% 3.5 ”参数 敏感 性 分 析 与 选择 

Arrhythmia 452 274 66 15 为 了 使 用 EROD 算法 进行 离 群 点 检测 ， 本 文 对 集成 模型 
Mnist 7603 100 700 9.2 中 各 个 组 件 检测 器 中 的 近邻 参数 大 做 不 同 的 取 值 进行 对 比 实 
Musk 3062 — 166 97 32 验 ， 进 一 步 地 从 其 中 选择 出 对 EROD 算法 检测 性 能 影响 较为 

Speech 3686 — 400 6 1.65 积极 的 取 值 参数 4， 并 建立 EROD 离 群 点 检测 模型 。 
3.3 评价 指标 近邻 参数 上 具体 选择 策略 为 : 首先 ， 近 邻 参 数 大 取 值 范 
在 评估 检测 性 能 和 指导 检测 器 建 模 时 ， 评 价 指标 起 着 不 围 为 [10，100]， 取 值 间 隔 为 10; 然后 ， 在 不 同 值 上 ， 分 


可 或 缺 的 作用 。 由 于 本 文 所 使 用 的 数据 均 为 不 平衡 数据 集 ， 析 组 件 检测 器 在 Arrhythmia, Mnist, Musk, Speech 这 4 个 

Accuracy 评价 指标 在 数据 不 平衡 时 ， 其 衡量 结果 往往 是 不 具 数据 集 上 的 4 个 AUC 分 值 ， 对 该 4 个 AUC 分 值 取 均值 ， 最 
LO 备 参 考 性 。 在 机 器 学 习 领 域 ， 对 该 类 数据 集 所 使 用 的 评价 指 后 ， 对 计算 得 到 的 10 个 AUC 均值 取 最 大 值 ， 该 最 值 对 应 的 
em, 标 为 AUC(Area Under Curve) 和 Precision@n。 故 本 文 使 用 这 — k 值 作为 组 件 检 测 器 的 近邻 参数 理想 选取 值 的 参考 依据 。 具 


两 类 评价 指标 。 体 过 程 如 算法 4 所 示 。 

AUC 是 ROC(Receiver Operating Characteristic) 曲线 下 的 算法 4 组 件 检 测 器 近邻 参数 选择 策略 
面积 ， 其 分 值 越 大 ， 则 代表 算法 检测 性 能 越 强 。 计 算 公式 如 输入 : k 值 初始 值 ， 组 件 检测 器 D， 数 据 集 Arrhythmia，Mnist， 
式 (7) 所 示 。 Musk, Speech. 


1 输出 : k 值 参考 值 。 
n 14 (x*)* d(x )]+ llt) a(r) 


: AUCc-Y Y (7) a) k-[10,20,30,40,50,60,70,80,90,100] 
5 Wer ids b) AUC-[] 
4 其 中 ，m+ 和 天 分别 表示 正 样本 和 负 样 本 的 数量 ， RU ox; 430 c) avgAUC-[] 
"Co 表示 第 1 个 和 第 /个 样本 ，4d 表 示 检 测 器 ，I[] 表 示 指示 函数 ， d) max-o 
该 函数 参数 为 真 时 ， 值 等 于 1， 否则 等 于 0。 e) jai 
Precisiongn 是 Precision 指标 的 特殊 情况 ， 该 种 评价 指 f) for i-k[j], i«101,j-j41 do 
D T NL n 个 正 例 时 ， 检 测 器 输出 g) AUC.append(D(i, Arrhythmia)) 
的 Precision 分 值 。 计 算 公 式 如 式 (8) 所 示 。 h) AUC.append(D(i, Mnist)) 
TP i) AUC.append(D(i, Musk)) 
Precision = 一 一 一 一 (8) . 
TP+ FP j) AUC.append(D(i, Speech)) 
Hh, TP(True Positive) 表 示 离 群 样本 被 正确 标记 为 离 群 样 k) avg4UC.append(Average(4UC) ) 
本 的 数量 ，FP(False Positive) 表 示 正 常 样本 被 错误 标记 为 异 1) end for 
常 样本 的 数量 。 m) k_reference=Max(avgAUC) 
3.4 实验 设计 n) output(k_reference) 
为 验证 EROD 算法 将 多 个 组 件 检测 器 集成 的 有 效 性 ， 将 如 图 3 所 示 ，KNN 组 件 检测 器 在 Arrhythmia, Mnist, 
本 文 方法 与 kKNN、Avg-kNN k-Median, LOF, COF 和 Musk, Speech 数据 集 上 : 
ABOD 等 6 个 组 件 检 测 器 以 及 FB、LODA 和 IForest 等 3 个 从 k-10 逐次 递增 到 大 40 的 过 程 中 ，AUC 均值 处 于 显 
集成 学 习 算 法 分 别 进行 了 对 比 实验 ; 同时 ， 为 保证 EROD 算 # EJEA; M k-40 逐次 递增 到 k-80 的 过 程 中 ，AUC 均 


av 


法 的 时 效 性 ，EROD 算法 与 较 新 的 同类 方法 EAOD(ensemble 涨幅 较为 微小 ， 从 K-80 逐次 递增 到 本 90 的 过 程 中 ，AUC 
and autoencoder-based outlier detection, EAOD)21 和 GAN- ”均值 处 于 不 明显 下 降 状 态 ;: AUC 均值 在 k=90 和 k-100 两 处 


VAE(generative adversarial network and variational auto- 相等 ， 当 k-80 时 ，AUC 均值 达到 最 大 值 0.7838。 但 是 ， 从 
encoder based outlier detection, GAN-VAE)[23] 在 高 维 不 均衡 数 k-40 开始 ，AUC 均值 变化 不 大 。 因 此 ，kNN 组 件 检测 器 在 
据 集 Mnist 上 ， 以 AUC 值 为 评估 指标 ， 进 行 了 对 比 实验 。 k=40 时 处 于 最 优 状 态 。 

在 实验 中 ，EROD 算法 为 了 平衡 维度 灾难 和 数据 多 样 性 如 图 4 所 示 ，Avg-kNN 组 件 检测 器 在 Arrhythmia, Mnist, 
带 来 的 影响 ， 开 随机 投影 将 数据 维度 压缩 为 原来 的 三 分 之 Musk, Speech 数据 集 上 : 


二 。 同 时 ， 为 了 探究 EROD 算法 对 其 起 到 决定 性 参数 的 敏感 从 k-10 逐次 递增 到 7100 的 过 程 中 ，AUC 均值 变化 趋 
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势 为 上 升 状 态 。 其 中 ， 从 ke10 递增 到 k-50 的 过 程 中 ，AUC 
均值 上 升幅 度 较为 明显 ;， 从 k-50 以 后 ，AUC 均值 上 升幅 度 
较 小 ; 当 k=100 时 ，AUC 均值 达到 最 大 值 0.7840。 因 此 ， 
Avg-kNN 组 件 检测 器 在 三 50 时 处 于 最 优 状态 。 
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图 3 kNN 检测 器 近邻 参数 敏感 性 分 析 


Fig.3 Sensitivity analysis of knn detector's neighbor parameters 
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图 4 . Avg-kNN 检测 器 近邻 参数 敏感 性 分 析 

Fig.4 Sensitivity analysis of Avg-knn detector's neighbor parameters 
如 图 5 所 示 ，k-Median 组 件 检测 器 在 Arrhythmia, Mnist, 

Musk，Speech 数据 集 上 : 
从 K-10 逐次 递增 到 k-100 的 过 程 中 ，AUC 均值 不 断 上 

升 。 当 从 10 增加 至 60 时 ，AUC 上 升 较为 显著 ， 当 从 

60 增加 至 100 时 ，AUC 上 升 较为 细微 ， 当 k=100 时 ，AUC 


均值 达到 最 大 值 0.7821. AE, k-Median 组 件 检测 器 在 
k=60 时 处 于 最 优 状态 。 
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图 5  k-Median 检测 器 近邻 参数 敏感 性 分 析 

Fig.5 Sensitivity analysis of k-Median detector's neighbor parameters 
如 图 6 Wrzs, LOF 组 件 检测 器 在 Arrhythmia, Mnist, 

Musk，Speech 数据 集 上 : 
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从 k-10 逐次 递增 到 k-100 的 过 程 中 ，AUC 均值 先 上 升 ， 
后 下 降 ， 再 上 升 。 其 中 ， 当 大 从 10 增加 到 20 时，AUC 均值 
显著 上 升 ， 当 从 20 增加 到 80 时 ，AUC 均值 近似 于 线性 下 
降 ， 当 大 从 80 增加 到 100 时 ，AUC 均值 激增 ; 4 k=100 时 ， 
AUC 均值 达到 最 大 值 0.7612。 从 宏观 角度 观察 ， 厂 100 对 应 
的 AUC 均值 明显 高 于 其 他 值 对 应 的 AUC 均值 。 因 此 ， 
LOF 组 件 检测 器 在 K—100 时 处 于 最 优 状态 。 
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图 6 LOF 检测 器 近邻 参数 敏感 性 分 析 
Fig.6 Sensitivity analysis of LOF detector's neighbor parameters 
如 图 7 所 示 ，COF 组 件 检测 器 在 Arrhythmia, Mnist, 
Musk, Speech 数据 集 上 : 
从 厂 10 逐次 递增 到 所 100 的 过 程 中 ，AUC 均值 先 上 升 ， 
后 下 降 ， 其 中 ， 当 大 由 10 增加 到 50 的 过 程 中 ，AUC 均值 处 
于 上 升 状 态 ， 当 大 由 50 增加 到 100 的 过 程 中 ，AUC 均值 处 
于 下 降 状 态 ， 当 K—50 Bf, AUC 均值 达到 峰值 0.6397。 因 此 ， 
COF 组 件 检测 器 在 K—50 时 处 于 最 优 状态 。 
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图 7 COF 检测 器 近邻 参数 敏感 性 分 析 

Fig.7 Sensitivity analysis of COF detector's neighbor parameters 
如 图 8 所 示 ，ABOD 组 件 检测 器 在 Arrhythmia, Mnist, 
Musk, Speech 数据 集 上 : 

从 厂 10 逐次 递增 到 7100 的 过 程 中 ，AUC 均值 先 下 降 ， 
在 上 升 ， 但 是 其 变化 幅度 十 分 细微 。 其 中 , k 由 10 增加 到 
70 f, AUC 均值 以 近似 于 水 平 的 细微 程度 缓慢 下 降 ; k 由 
70 增加 到 100 f, AUC 均值 又 以 近似 于 水 平 的 细微 程度 组 
慢 上 升 ， 当 k=10 mf, AUC 均值 达到 峰值 0.5807。 因 此 ， 
ABOD 组 件 检 测 器 在 入 10 时 处 于 最 优 状态 。 

综 上 所 述 ，kNN，Avg-kNN，k-Median，LOF，COF， 
ABOD 这 6 个 组 件 检测 器 的 近邻 参数 大 分 别 取 值 为 40，50， 
60, 100, 50, 10 时 ， 它 们 的 性 能 处 于 最 优 。 因 此 ， 选 取 该 
些 近 邻 参 数 取 值 作为 EROD 算法 中 各 个 组 件 检测 器 的 近邻 参 
数 取 值 。 
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表 4 给 出 了 在 4 个 不 同 的 高 维 数据 集 上 EROD 与 KNN、 


Avg-kNN, k-Median, LOF, COF 
Ph 加 粗 的 数字 代表 检测 性 能 最 强 的 
10 分 别 给 出 了 在 不 同 数据 集 上 
的 比较 。 


n 


Precision 4) 4H 


表 5 给 出 了 在 4 个 不 同 的 高 维 


和 ABOD 的 比较 结果 ， 表 
两 个 算法 。 而 且 ， 图 9 和 
各 算法 的 AUC 分 值 和 


数据 集 上 EROD 与 FB. 


LODA 和 IForest 等 3 个 集成 学 习 


粗 的 数字 代表 检测 性 能 最 强 的 两 个 算法 。 
分 别 给 出 了 在 不 同 数据 集 上 各 算法 的 AUC 分 什 


分 值 的 比较 。 


指标 ， 进 行 了 对 比 实验 。 


算法 的 比较 结果 ， 表 中 加 
而 且 ， 图 11 和 12 


和 Precision 


图 13 给 出 了 EROD 与 较 新 的 两 个 同类 方法 EAOD 和 
GAN-VAE 在 高 维 不 均衡 数据 集 Mnist E, L AUC f 
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图 9 不同 算法 的 AUC 分 值 比较 
Fig.9 Comparison of AUC scores of different algorithms 
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Fig. 10 Comparison of Precision scores of different algorithms 
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表 4 EROD 算法 与 各 组 件 检测 器 的 比较 
Tab.4 Comparison of EROD algorithm with each component detector 


数据 集 方法 AUC Score Precision Score 
EROD 0.7922 0.4545 
kNN 0.7809 0.4191 
Avg-kNN 0.7787 0.3994 
Arrhythmia k-Median 0.7804 0.4032 
LOF 0.7765 0.4356 
COF 0.7829 0.4468 
ABOD 0.7544 0.3636 
EROD 0.8537 0.4414 
kNN 0.8429 0.4200 
Avg-kNN 0.8361 0.4300 
Mnist k-Median 0.8407 0.4286 
LOF 0.8161 0.3914 
COF 0.7328 0.3786 
ABOD 0.7994 0.3886 
EROD 0.9878 0.6907 
kNN 0.9792 0.6801 
Avg-kNN 0.9613 0.5052 
Musk k-Median 0.9778 0.6289 
LOF 0.9733 0.3402 
COF 0.5523 0.1340 
ABOD 0.0636 0.0412 
EROD 0.5615 0.0656 
kNN 0.4790 0.0328 
Avg-kNN 0.4877 0.0307 
Speech k-Median 0.4803 0.0164 
LOF 0.4787 0.0169 
COF 0.4839 0.0315 
ABOD 0.6530 0.1603 
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图 11 与 集成 学 习 算 法 的 AUC 分 值 比较 
Fig. 11 Comparison of AUC scores of ensemble learning algorithms 
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Fig.12 Comparison of precision scores of ensemble learning algorithms 
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图 13 与 两 个 较 新 的 同类 算法 EAOD 和 GAN-VAE 的 AUC 分 值 比 较 
Fig. 13 Comparison of AUC scores with two newer 
similar algorithms EAOD and GAN-VAE 
表 5 EROD 算法 与 其 他 集成 学 习 算 法 的 比较 
Tab.5 Comparison of EROD algorithm with 


other ensemble learning algorithms 


数据 集 方法 AUC Score Precision Score 
EROD 0.7922 0.4545 
FB 0.7564 0.3788 
Arrhythmia 

LODA 0.7271 0.4091 
IForest 0.7798 0.4394 
EROD 0.8537 0.4414 
FB 0.6875 0.2871 

Mnist 
LODA 0.6162 0.2457 
IForest 0.7889 0.3057 
EROD 0.9878 0.6907 
FB 0.6052 0.2784 

Musk 
LODA 0.9637 0.6392 
IForest 0.9763 0.8763 
EROD 0.5615 0.0656 
FB 0.5049 0.0492 

Speech 
LODA 0.4955 0.0328 
IForest 0.4605 0.0328 


对 于 EROD 算法 相 比较 于 各 组 件 检测 器 ， 可 以 看 出 在 


Arrhythmia, Mnist, Musk 上 ，EROD 算法 的 两 个 评价 指标 
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上 侧重 点 不 同 ， 导 致 EROD 算法 在 AUC 和 Precision 分 值 上 
一 高 一 低 。 


对 于 EROD 算法 相 比 较 于 较 新 的 同类 方法 EAOD 和 
GAN-VAE， 在 高 维 不 均衡 数据 集 Mnist E, AUC 分 值 分 别 
提升 了 1.02% 和 0.46%， 这 证 明了 EROD 在 解决 同 种 问题 上 
的 先进 性 。 
在 表 4 和 5 中 ， 在 Speech 数据 集 上 ， 无 论 是 何 种 算法 ， 

在 该 数据 集 上 分 值 普遍 较 低 。 如 图 14 所 示 ，Speech 在 2-D 
可 视 化 图 像 中 ， 红 色 葵 形 表 示 离 群 点 ， 其 余 表示 正常 点 ， 可 
以 看 出 这 是 因为 在 该 数据 集中 ， 离 群 点 与 正常 点 高 度 地 混合 
在 一 起 ， 隐 藏 在 正常 点 内 部 ， 且 在 维度 分 布 上 未 处 于 尾部 位 
置 ， 导 致 其 在 维度 分 布 上 与 正常 点 高 度 相 似 ， 使 得 离 群 点 检 
测算 法 无 法 达到 最 佳 检 测 性 能 。 只 有 离 群 点 位 于 暴露 明显 的 
尾部 时 ， 离 群 点 检测 算法 才 可 精准 地 捕获 与 识别 。 


图 14 Speech 数据 集 2-D 嵌入 式 可 视 化 图 像 
Fig. 14 Speech dataset 2-D embedded visualization image 
综 上 所 述 ， 通 过 与 各 种 离 群 点 检测 算法 在 多 个 高 维 数 

集 上 的 对 比 实验 ， 验 证 了 EROD 算法 的 有 效 可 行 性 。 


4 ”结束 语 


本 文 提出 一 种 新 的 离 群 点 检测 框架 -EROD， 算 法 集成 
随机 投影 对 高 维 数据 进行 降 维 ， 同 时 提升 了 数据 多 样 性 ， 通 
过 对 多 个 异 质 离 群 点 检测 器 进行 集成 ， 提 升 了 算法 鲁 棒 性 ， 


ml 
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均 优 于 其 他 算法 : 在 Arrhythmia E, AUC 和 Precision 分 值 
相 较 于 检测 性 能 次 高 的 算法 分 别提 升 了 1.2 个 百分点 和 1.7 
和 百分点 ; 在 Mnist 上 ，AUC 和 Precision 分 值 相 较 于 检测 
性 能 次 高 的 算法 分 别提 升 了 1.3 个 百分点 和 2.7 个 百分点 ; 
在 Musk 上 ，AUC 和 Precision 分 值 相 较 于 检测 性 能 次 高 的 
算法 分 别提 升 了 0.9 个 百分点 和 1.6 个 百分点 。 但 是 ， 在 
Speech 上 ，EROD 算法 的 两 个 评价 指标 均 处 于 次 高 状态 ， 这 
是 因为 集成 框架 中 大 部 分 组 件 检测 器 在 该 数据 集 上 表现 较 差 ， 
导致 EROD 算法 平衡 泛 化 误差 的 能 力 有 所 降低 ， 但 EROD 
的 表现 优 于 大 部 分 组 件 检测 器 。 

对 于 EROD 算法 相 比较 于 其 他 集成 学 习 算 法 ， 可 以 看 出 
在 Arrhythmia, Mnist, Speech 上 ，EROD 算法 的 两 个 评价 
指标 均 优 于 其 他 算法 : 在 Arrhythmia E, AUC 和 Precision 
分 值 相 较 于 检测 性 能 次 高 的 算法 分 别提 升 了 1.2 个 百分点 和 
3.4 个 百分点 ; 在 Mnist E, AUC 和 Precision 分 值 相 较 于 检 
测 性 能 次 高 的 算法 分 别提 升 了 8.2 个 百分点 和 44 个 百分点 ; 
在 Speech 上 ，AUC 和 Precision 分 值 相 较 于 检测 性 能 次 高 的 
算法 分 别提 升 了 11.2 个 百分点 和 33.3 个 百分点 。 但 是 ， 在 
Musk 上 ，EROD 算法 在 Precision 4) EXT IForest 算 
法 ， 但 在 AUC 分 值 上 均 优 于 其 他 算法 ， 相 较 于 检测 性 能 次 
高 的 算法 提升 了 1.2 个 百分点 ， 这 是 因为 衡量 指标 在 统计 学 


之 后 异 质 集 成 模型 对 多 个 降 维 后 的 数据 进行 训练 ， 并 分 两 次 
对 训练 后 的 模型 进行 组 合 ， 有 效 降低 泛 化 误差 ， 提 升 算 法 检 
测 性 能 。 同 时 ， 从 理论 上 分 析 了 算法 的 参数 敏感 性 ， 并 讨论 
了 集成 组 件 检 测 器 时 超 参 的 选择 依据 。 在 UCI 数据 身 
验 ， 以 AUC 和 Precision 为 评价 指标 对 算法 进行 评估 ， 与 传 
统 的 离 群 点 检测 算法 和 基于 集成 学 习 的 离 群 点 检测 算法 进行 
比较 ， 实 验 结果 表明 EROD 算法 具有 处 理 高 维 不 均衡 数据 异 
常 的 优势 。 同 时 ， 考 虑 到 随机 投影 和 有 异 质 检测 器 的 集成 机 制 
对 EROD 算法 效率 的 作用 ， 是 值得 深入 探讨 的 课题 。 进 一 步 
研究 将 从 实验 上 研究 不 同 的 降 维 方式 和 检测 器 对 EROD 算法 
的 影响 以 及 从 理论 上 分 析 EROD 算法 泛 化 误差 临界 点 和 其 组 
件 检测 器 泛 化 误差 临界 点 的 关系 。 
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